Aprendizaje online en MDPs con transiciones y pérdidas adversariales parciales
Descubre nuevos algoritmos para MDPs con transiciones adversariales que logran regret sublineal. Basados en medidas de ocupación condicionadas.
Descubre nuevos algoritmos para MDPs con transiciones adversariales que logran regret sublineal. Basados en medidas de ocupación condicionadas.
Descubre por qué auditar políticas casi óptimas en RL puede ser exponencialmente difícil. Analizamos cotas inferiores de consulta y la capacidad Rashomon.